2025年11月7日
ハードウェア
ローカルLLM向けGPU接続インターフェース徹底比較 |
ローカルLLM時代において、GPUの選び方だけでなく「接続方式」も性能を左右する重要な要素です。最新の記事「ローカルLLM向けGPU接続インターフェース徹底比較」では、PCIe直挿しとThunderbolt eGPUの帯域・実測性能を徹底検証。Thunderboltは手軽さと拡張性に優れる一方、帯域制限により10〜50%の性能差が生じるケースもあります。7B〜13BクラスのLLM推論には実用的ですが、大規模モデルや生成AI開発にはPCIe直挿しのワークステーション構成が最適。開発者・研究者必見のハードウェア選定ガイドです。

PCIe直挿し vs Thunderbolt eGPU
はじめに
ローカルLLM環境を構築するとき、どのGPUを買うかと同じくらい重要なのが、
そのGPUを 「どうやってホストマシンに接続するか」 です。
- デスクトップなら:マザーボードの PCIeスロットに直挿し
- ノートPCやNUCなら:Thunderbolt/USB4経由のeGPU
という選択肢になりますが、その違いは「ちょっと帯域が違う」レベルではありません。
帯域・レイテンシ・実ベンチマークの差が、LLM推論のスループットやレイテンシにじわじわ効いてきます。
本記事では、公開されているベンチマークや技術資料を元に、
- PCIe直挿しとThunderbolt eGPUの帯域・レイテンシ
- 実ゲーム/GPGPUベンチでの性能低下の目安
- ローカルLLM/生成AI用途でどこまで妥協できるか
を整理します。
第1章 PCIeとThunderboltの基本スペック比較
1.1 帯域の理論値をざっくり把握する
まずは「線の太さ」の話から。
PCIe(デスクトップでの標準接続)
PCI Expressの帯域(片方向:x16)の理論値はおおよそ以下です:ウィキペディア
| 規格 | レーン数 | 理論帯域 (片方向) |
|---|---|---|
| PCIe 3.0 | x16 | 約 31.5 GB/s |
| PCIe 4.0 | x16 | 約 63.0 GB/s |
| PCIe 5.0 | x16 | 約 126.0 GB/s |
最近のコンシューマGPU(RTX 40シリーズなど)は、
物理x16スロットでも「電気的にはx8」動作のことも多く、
- PCIe 4.0 x8 ≒ PCIe 3.0 x16 とほぼ同等(~32GB/sクラス)
と考えておけばだいたいOKです。
Thunderbolt 3 / 4 / 5(eGPUでよく使うやつ)
Thunderboltは「1本のケーブルで PCIe + DisplayPort などをトンネリングする」仕様なので、
カタログ値の 40Gbps / 80Gbps がそのままPCIeに使えるわけではありません。
代表的なポイント:
- Thunderbolt 3
- 公称 40Gbps(双方向)
- PCIeとしては最大 4レーンのPCIe 3.0 (32Gbps) をトンネリング可能
- 実際に使えるPCIeデータ帯域はオーバーヘッド込みで 約 21〜25Gbps 程度とされるウィキペディア
- Thunderbolt 4
- 同じく 40Gbps だが、常に PCIe 3.0 x4 の32Gbpsをデータに利用可能(TB3のようなビデオ優先の固定予約がない)Apple Discussions
- Thunderbolt 5
-
最大 120Gbps(ブーストモード)だが、GPU用のPCIe帯域としては依然 x4相当の世界で、
デスクトップのPCIe x16には届かないHP® Store
-
まとめると、「GPUに使える実効帯域」という観点ではだいたいこんなイメージです:
| 接続 | 実効PCIe帯域のイメージ |
|---|---|
| PCIe 4.0 x16 | ~63 GB/s |
| PCIe 4.0 x8 | ~32 GB/s |
| Thunderbolt 3/4 eGPU | PCIe 3.0 x4 相当 (~4 GB/s) |
| Thunderbolt 5 eGPU | PCIe 4.0 x4 相当だが、プロトコルオーバーヘッドあり |
つまり、Thunderbolt eGPUは「GPU側だけハイエンドでも、線は x4 世代」 という前提になります。
第2章 実ベンチから見る Thunderbolt eGPU の性能低下
「帯域が1/4なら性能も1/4?」というと、実はそう単純ではありません。
GPUの仕事の大半は VRAMの中だけで完結するので、
インターフェース帯域をフルに使い切るケースはそこまで多くないからです。MacRumors Forums+1
2.1 一般的なeGPUベンチの傾向
いくつかの公開ベンチ・検証レポートから、Thunderbolt eGPUの性能低下をざっくり拾うと:
-
RTX 3090 をデスクトップ直挿し vs Thunderbolt eGPU で比較したBlenderベンチ
→ eGPU側はデスクトップの 約78% のスコア(≒22%ダウン)Blender Artists Community
-
Mac + TB3 eGPU の各種ベンチまとめ
→ GPUがハイエンドになるほど、TB3側の性能ドロップが大きくなり、
おおよそ 20〜30%程度の低下 が多いeGPU.io
-
ゲーム用途の一般論(HPのeGPUガイド)
→ 「デスクトップPCIeと比べて 10〜20%の性能低下、内蔵ディスプレイを使うとそれ以上落ちる」HP® Store
また、内蔵ディスプレイ vs 外付けディスプレイ でも差があり、
-
Thunderbolt eGPU → 外付けモニタ直結:
内蔵ディスプレイに戻すパスが不要になり、最大30%以上パフォーマンスが向上するケースも報告されています。eGPU.io
2.2 極端なケース:帯域依存の高いワークロード
-
Stable Diffusion など、大量のテクスチャ/特徴マップを頻繁にCPU側とやりとりするようなワークロードでは、
「PCIe 4.0 x16 + RTX 4090」と比べて
Thunderbolt eGPUで50%近い性能低下を観測した事例もあります。Reddit
このあたりから、
帯域依存の強いワークロードほど
Thunderbolt eGPU のペナルティが大きくなりやすい
という方向性が見えてきます。
第3章 ローカルLLM/生成AIでの影響をどう見るか
では、本題の ローカルLLM ではどうか?
ここは少し性質が違います。
3.1 LLM推論のデータ流れの特徴
多くのLLM推論は、おおむねこんな流れです:
-
モデル重み(数GB〜数十GB)を 起動時に一度だけVRAMにロード
-
推論中は、トークナイズ済みの入力と中間状態(KVキャッシュ)を
ほぼVRAM内で更新・参照し続ける
-
CPU側とのやり取りは、「入力テキスト」と「出力トークン列」が中心で、量は比較的少ない
つまり、**帯域を一番使うのは「起動時のモデルロード」**であり、
推論ループに入ってしまえば、インターフェース帯域よりGPUの演算性能・VRAM帯域の方が支配的になるケースが多いです。
このため、ローカルLLMの推論だけを見ると:
- モデルが 完全にVRAM内に収まる
- KVキャッシュなどもVRAM内で完結
- 毎トークンごとにCPUと巨大なテンソルをやりとりしない
という前提なら、Thunderbolt eGPUでも性能低下は 10〜20% 程度で済むことが多い、というのが実務上の感覚です(ゲームやBlenderベンチの結果からの類推)。
3.2 どんなときにThunderboltの帯域がボトルネックになるか
逆に、以下のようなケースでは帯域の影響が大きくなります:
-
VRAMに入りきらない大規模モデル
→ 重みの一部やKVキャッシュをCPUメモリ側に逃がしている場合、
毎トークンごとに Thunderbolt 越しの転送が発生し、スループットが大きく低下しうる。
-
マルチGPU/分散推論で、GPU間通信をホスト経由でやっている構成
→ GPU間のAllReduce的な通信が全て x4帯域に乗るので、
PCIe直挿しやNVLink構成に比べて明確にスケールしにくくなる。
-
大量の埋め込み計算+CPU側データベース
→ 1リクエストあたりのトークン数は少ないが、
画像やベクトルを行き来させる頻度が高い場合、TB側のI/Oが目立ってくる。
第4章 PCIe直挿し vs Thunderbolt eGPU:ローカルLLM視点のまとめ
ここまでの情報を、ローカルLLM/生成AI用途に絞って整理します。
4.1 性能インパクトのざっくり目安
前提:同じGPUを、PCIe直挿しとThunderbolt eGPUで使い比べた場合
| 用途・ワークロード | 性能低下の目安(eGPU vs PCIe直挿し) | コメント |
|---|---|---|
| 軽〜中量級 LLM推論(7B〜13B、VRAM内完結) | おおよそ 10〜20% ダウン | 体感は「ちょっと遅い」程度で済むことが多い |
| 大規模LLM(30B〜70B、VRAMギリギリ〜不足) | 20〜40% ダウンもあり | CPUメモリスワップが発生すると一気に悪化 |
| Stable Diffusionなど画像生成(高解像度・大バッチ) | 20〜50% ダウン | 転送量が多く、帯域差が顕著に効くReddit+1 |
| ゲーム・3Dレンダリング(外付けモニタ) | 10〜30% ダウン | GPU性能が支配的だが、高FPS域ほど差が出るHP® Store+1 |
| ゲーム(ノートPC内蔵ディスプレイ駆動) | 20〜40% ダウン | 描画結果がTB経由で戻るため、さらに不利eGPU.io |
4.2 接続方式ごとの「向き・不向き」
Thunderbolt eGPU がアリなケース
-
既に Thunderbolt 3/4/5対応ノートPCやNUCを持っている
-
扱うモデルが 7B〜13Bクラス中心 で、VRAM内に収まる
-
主用途が LLM推論・軽いLoRA学習・コード補完 など
-
「最高効率」よりも
・モバイル性/省スペース ・既存マシンの延命 ・導入の手軽さ を優先したい
PCIe直挿し(一体型ワークステーション)が必須に近いケース
- 30B〜70Bクラス以上のモデルを常用したい
- Stable Diffusionや動画生成など、帯域依存の強いワークロードがメイン
- マルチGPU構成でスケールさせたい(NVLinkやPCIeスイッチを活用する)
- サーバ用途で 24/7稼働させたい(Thunderboltはホットプラグ前提のコンシューマ寄り)
第5章 実際に構成を決めるときの指針
最後に、「自分がどっちを選ぶべきか」を判断するためのチェックリストです。
5.1 Thunderbolt eGPUを選んでよいかチェック
- 手元のPCが Thunderbolt 3/4/5 対応 である
- 主に使うモデルは 7B〜13Bクラス(Q4〜Q6量子化でVRAMに収まる想定)
- 多少の性能低下(PCIe直挿し比で 1〜2割遅い)は許容できる
- ノートPCやNUC中心で運用したい/省スペースを重視
- eGPUエンクロージャのコスト(4〜9万円前後)を許容できる
5.2 PCIe直挿しワークステーションを選ぶべきチェック
- 30B以上のモデルや、複数モデルを同時稼働させたい
- 将来的に マルチGPUに拡張する可能性がある
- LLMだけでなく、画像生成・動画生成・レンダリングもヘビーに使う
- 10〜20%の差でも「積み重なると無視できない」と感じる規模のワークロード
- シャーシ/電源/冷却を含めた自作・ワークステーション構築に抵抗がない
結論
-
帯域面だけ見ると
Thunderbolt eGPUは PCIe 4.0 x16 に比べて 1/3〜1/4 程度の帯域しか使えません。ウィキペディア+2ウィキペディア+2
-
しかし実際のベンチでは、
-
ゲームやBlenderでは だいたい 10〜30% 程度の性能低下
-
帯域依存の強いStable Diffusionなどでは 最大50%程度の低下
という結果が多く報告されています。Blender Artists Community+2eGPU.io+2
-
-
ローカルLLM推論用途だけを考えると、
モデルがVRAMに収まり、CPUメモリとの往復が少ない限り、 Thunderbolt eGPUでも「少し遅い程度」で実用範囲に収まることが多いです。
一方で、ハイエンドローカルLLM環境を本気で作るつもりなら、
- 十分なVRAMを持つGPUを PCIe直挿し
- 可能なら マルチGPU+NVLink/高速PCIeスイッチ
- 大容量・高速NVMeと十分な電源/冷却
という、昔ながらの「ちゃんとしたワークステーション構成」が、今でも結局いちばん強い選択肢であることは変わりません。